检索结果

Select

1. 基于多头注意力机制的端到端语音情感识别

杨磊, 赵红东, 于快快

《计算机应用》唯一官方网站 2022, 42 (6): 1869-1875. DOI: 10.11772/j.issn.1001-9081.2021040578

摘要（320）

HTML （12）

PDF （2133KB）（154）

针对语音情感数据集规模小且数据维度高的特点，为解决传统循环神经网络（RNN）长程依赖消失和卷积神经网络（CNN）关注局部信息导致输入序列内部各帧之间潜在关系没有被充分挖掘的问题，提出一个基于多头注意力（MHA）和支持向量机（SVM）的神经网络MHA-SVM用于语音情感识别（SER）。首先将原始音频数据输入MHA网络来训练MHA的参数并得到MHA的分类结果；然后将原始音频数据再次输入到预训练好的MHA中用于提取特征；最后通过全连接层后使用SVM对得到的特征进行分类获得MHA-SVM的分类结果。充分评估MHA模块中头数和层数对实验结果的影响后，发现MHA-SVM在IEMOCAP数据集上的识别准确率最高达到69.6%。实验结果表明同基于RNN和CNN的模型相比，基于MHA机制的端到端模型更适合处理SER任务。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 基于改进粒子群优化的支持向量机与情景感知的人体活动识别

王杨, 赵红东

计算机应用 2020, 40 (3): 665-671. DOI: 10.11772/j.issn.1001-9081.2019091551

摘要（379）

PDF （754KB）（320）

针对目前人体活动类别识别准确率偏低的问题，提出一种支持向量机（SVM）与情景分析（人体运动状态转换的实际逻辑或统计模型）相结合的识别方法，对人体日常的六种活动（步行、上楼、下楼、坐下、站立、躺下）进行识别。该方法利用了人体活动样本之间存在逻辑关系的特点，首先使用经改进的粒子群优化（IPSO）算法对SVM模型进行优化，然后利用优化后的SVM对人体活动进行分类，最后通过情景分析的方法对错误的识别结果进行修正。实验结果表明，所提方法在加州大学欧文分校（UCI）的人体活动识别数据集（HARUS）上的分类准确率达到了94.2%，高于传统的仅使用模式识别进行分类的方法。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于轻量级深度神经网络的环境声音识别

杨磊, 赵红东

计算机应用 2020, 40 (11): 3172-3177. DOI: 10.11772/j.issn.1001-9081.2020030433

摘要（379）

PDF （903KB）（797）

针对传统卷积神经网络（CNN）模型存在大量冗余参数的问题，提出了两个基于SqueezeNet核心结构Fire模块的轻量级网络模型Fnet1和Fnet2。之后结合移动端分布式数据采集和处理的特点，在Fnet2模型基础上，依据Dempster-Shafer（D-S）证据理论将Fnet2与深度神经网络（DNN）融合，提出新的网络模型FnetDNN。首先，建立一个具有四层卷积层的神经网络Cent作为基准，以梅尔倒谱系数（MFCC）作为特征输入来对比分析Fnet1、Fnet2和Cent的网络结构特点、计算量、卷积核参数数量及识别准确率，结论是Fnet1仅使用Cnet参数数量的10.3%就可达到86.7%的分类准确率；然后，将MFCC与全局特征向量输入到FnetDNN模型中，使得该模型的识别准确率提高到了94.4%。实验结果表明，Fnet网络模型不仅可以压缩冗余参数，还可以与其他网络相融合，具备模型扩展能力。

参考文献 | 相关文章 | 多维度评价